Loading...
机构名称:
¥ 1.0

但是,将这些技术扩展到文本对视频(T2V)的一代引入了由于视频的时空性质而引起的新挑战。与图像不同,视频除了外观外,还包含运动,因此必须两者考虑两者。当前的自定义方法(Hu等,2021; Mou等,2023; Sohn等,2023; Ye等,2023; Zhang&Agrawala,2023; Gal等,2022; Ruiz等,Ruiz等,2023)主要介绍出现在外观定制,忽略了视频中,这是至关重要的。运动自定义涉及将特定的运动或动画调整到不同对象或字符上,这一任务随着时间的流逝而复杂化和动态变化(Siarrohin等,2019a; b; yatim et al。,2023; Jeong等,2023)。但是,这些方法无法捕获运动的动力学。例如,文本反演(Gal等,2022)从图像中学习嵌入,但缺乏捕获时间相关性的能力,这对于视频动力学至关重要。同样,诸如Dreambooth(Ruiz等,2023)和Lora(Hu等,2021)之类的微调方法努力使运动与外观相关。

arxiv:2403.20193v2 [CS.CV] 2024年10月16日

arxiv:2403.20193v2 [CS.CV] 2024年10月16日PDF文件第1页

arxiv:2403.20193v2 [CS.CV] 2024年10月16日PDF文件第2页

arxiv:2403.20193v2 [CS.CV] 2024年10月16日PDF文件第3页

arxiv:2403.20193v2 [CS.CV] 2024年10月16日PDF文件第4页

arxiv:2403.20193v2 [CS.CV] 2024年10月16日PDF文件第5页

相关文件推荐